Опубликовано День ТВ на YouTube 01.06.2019
Что такое Big Data. Каким образом большие данные преобразуются в информацию, которая обладает стоимостью. Как искусственный интеллект получает информацию с фотографий. Как Фейсбук и Гугл зарабатывают на больших данных, кто является их покупателем. Существует ли в сети анонимность. Что такое закон о забвении и можно ли удалить свою личную информацию из интернета. Как государство использует Big Data, как их потенциально можно использовать. Об этом и многом другом рассказывает в интервью программист, эксперт по большим данным Артур Хачуян. Ведущая - Христина Третьякова.
SocialDataHub: Как экс-рекламщик сделал бизнес на Big Data и продает услуги бывшим коллегам (и чиновникам)
incrussia.ru, Андрей Писарев, 10.02.2017
В 2014 году Артур Хачуян увел из рекламного агентства «Апостол» Тины Канделаки весь отдел кибернетики, которым сам и руководил: четверых программистов, двоих сисадминов и одного аналитика. Так появился SocialDataHub, который знает о вас и нас всё: любимый бар, породу кота, марку автомобиля и даже тайную мечту выучить французский. Эти парни (точнее, разработанные ими алгоритмы) круглосуточно скачивают открытую информацию из соцсетей, блогов, форумов и медиа. Хаотичные и бесконечные массивы данных связывают и анализируют по заказу клиентов: бренды хотят прицельно таргетировать рекламу и угадывать желания клиентов, журналисты — проводить расследования, госорганы — находить преступников.
Зачем (и для кого) они это делают
Рядовой пример. Чтобы разработать концепцию рекламной кампании, бренд подгузников хотел в деталях знать, как живут и чем интересуются современные беременные. Алгоритм SocialDataHub нашел в соцсетях фотографии женщин, ожидающих ребенка, и проанализировал открытые данные их аккаунтов, начиная с даты рождения, лайков и комментариев и заканчивая участием в сообществах и геотегами. Обошлось такое исследование в 60000 рублей.
Из более дорогих услуг (400000 рублей в месяц) — поиск потенциальных подписчиков для провайдера интернет-телевидения. Клиент предоставил имена действующих абонентов. SocialDataHub нашел их аккаунты в соцсетях и проанализировал интересы, места работы, семейное положение и другие данные. Их усреднили и вывели идеальную аудиторию для рекламы — ту, которая еще не подключена к провайдеру, но с максимальной вероятностью сделает это.
А с журналистами из Life команда Артура работала над расследованием деятельности групп растлителей[1] во ВКонтакте. Тогда удалось вычислить десятки сообществ распространителей детской порнографии. На дата-консалтинговые расследования у SocialDataHub действует почасовая оплата — около 1500 рублей за человеко-час. На изучение материалов о растлителях ушло примерно 20 человеко-часов, поделенных между тремя специалистами: двумя аналитиками и одним программистом.
Сейчас команда Артура развивает новое направление: помогает корпорациям следить за сотрудниками. Анализируя данные из соцсетей и рабочий интернет-трафик, SocialDataHub может выявить слабые звенья: работников, которые изучают вакансии других компаний, часто заходят в соцсети или вовсе пытаются украсть корпоративную информацию. Это может быть крупный начальник, случайно засветившийся на дискредитирующей фотографии клуба свингеров или во время обеда с конкурентом. О том, что такие кадры были сделаны, человек может даже не знать, но если снимки попали в сеть — SocialDataHub их найдет.
Большие данные
Термин Big Data появился в заголовках изданий всего 8 лет назад, а сейчас его знает каждый. Это комплекс методов обработки больших (и зачастую неструктурированных) массивов данных. Строго говоря, Big Data — это методы работы с тем, с чем не справляется Excel.
Последний громкий пример[2] успешного использования Big Data пришёлся на президентские выборы 2016 года в США и Brexit-референдум в Великобритании. Получив доступ к лайкам, геотегам и другим приватным данным Facebook, компания Cambridge Analytica определила политические предпочтения англоязычных пользователей сайта. Получив результаты комплексной аналитики больших массивов данных, евроскептики и сторонники Трампа организовали бомбардировку сомневающихся избирателей персонализированными новостями. Так усилиями всего дюжины сотрудников Cambridge Analytica потерпела крах классическая социология.
С чего всё началось и куда идет
После ухода Артура из рекламного агентства у него остались дружеские связи с менеджером отдела продаж. В агентстве он занимался госконтрактами и помог Хачуяну с первыми клиентами. Это были чиновники, которых интересовали технологии распознавания изображений.
Американским коллегам для получения информации из Facebook пришлось налаживать сеть приложений, ворующих персональные данные. А для SocialDataHub хватает и открытых данных из сети ВКонтакте: членство в группах, аудиозаписи, фотографии, списки друзей и прочее. Для поддержания актуальности информации данные приходится скачивать (парсить) 24/7. Чтобы следить за процессом, Артур оборудовал у себя в квартире миниатюрный ситуационный центр на три экрана. Команда Хачуяна использует и другую информацию открытого интернета (публикации в СМИ, форумы и блоги), чтобы получить почти универсальную базу данных.
— Многие задачи связаны с нашим движком поиска людей по лицам, — рассказывает Хачуян. — Госорганам от нас нужен поиск педофилов, дезертиров и других плохих людей. Это работа с определенным уровнем секретности — многие мои сотрудники невыездные. А жаль: я бы хотел увезти всех в Таиланд, как сделал Aviasales.
Деньги от работы с государством обеспечили легкий старт, позволили поднять компанию на ноги без внешних инвестиций, снять первый офис и привлечь клиентов из мира бизнеса. Сегодня основные заказчики — рекламные и диджитал-агентства, желающие исследовать аудиторию или узнать, что говорят о бренде в сети. Команда Хачуяна не только выявляет все негативные упоминания бренда в СМИ, но находит очаги их появления и предлагает способы урегулирования ситуации. Артур говорит, что после подобных исследований клиенты стали сами к нему приходить — по рекомендациям. Обходятся такие отчеты примерно в 150 000 рублей, но в зависимости от объема обрабатываемой информации сумма может вырасти и до 700 000 рублей.
Вопрос имиджа
Клиент SocialDataHub чувствует флер игривости уже с адресной строки: сайт расположен на домене.sexy. Почти эротический проморолик сразу предлагает пользователю «испытать дата-оргазм». Так компания успешно продает консалтинговые услуги рекламщикам и СМИ. Но хотя у Артура команда одна, однако есть и вторая компания, с более серьезным имиджем. FUBUTECH помогает чиновникам искать диссидентов и сотрудничает с крупными корпорациями.
Артур общается весьма непринуждённо, а его дреды отрицают классический корпоративный дресс-код.
— Пока продажами занимаюсь лично я. Когда вхожу в кабинет, меня представляют и выступают гарантом моей практической полезности. Но спустя 10–15 минут собеседник и сам понимает, что я не идиот. Вопросы о мытье головы с дредами в кабинетах не задают. Даже в Администрации президента всё было норм.
Сейчас в компании Артура уже 37 сотрудников: два front-end разработчика, два сисадмина, остальные — программисты и аналитики. Прежний офис стал мал, поэтому вся команда работает удаленно. Бухгалтера нет: всю бумажную работу делает скрипт.
В планах у предпринимателя — расширить штат до 50–70 человек, найти менеджеров по продажам (пока Артур ведет переговоры лично) и выйти на мировой рынок. В приоритете — развитие Big Data как инструмента безопасности, антитерроризма и маркетинга.
Если смотреть на ближайшее будущее, то аналитика больших данных станет локомотивом развития максимально таргетированной рекламы, уверен Хачуян:
— Это очень перспективная отрасль. Сейчас 90% рекламы в интернете — мусор. Остальные 10% начинают работать только тогда, когда тебе потребуется товар. Скажем, ищешь в интернете холодильник. Следующую пару недель ВКонтакте и Facebook выдают тебе рекламу холодильников. А теперь представьте максимально персонализированную рекламу, которая предугадывает ваши нужды и отзывается на них заранее. Вот это и есть ближайшее будущее Big Data-аналитики.
Ссылки
Комментарии на Ютуб
Есть ряд вещей, которые BigData использует, но при этом ущемляет права людей. Хачуян сказал, что сфера в которой он работает – серая.
Пример 1: чтобы поставить ограничение на фотографию в соц. сети "для друзей", её надо сначала выложить. И уже в этот момент все данные отправились в хранилище (независимо от дальнейших настроек приватности).
Пример 2: закрытая вечеринка или корпоратив, а через дорогу человек делает селфи. Без разрешения этого человека (и тем более людей на вечеринке) изображения с камериканцы используются для выявления круга лиц присутствующих на вечеринке.
23:04 – он не в курсе, что Россия не на первом месте в мире по количеству чиновников на душу населения.
Ныне количество жителей России примерно в 3 раза больше, чем в Канаде, но при этом в Канаде количество чиновников-бюрократов больше, чем в России.
Вообще у нас бурные дискуссии как все плохо какие подлецы – но нам жить осталось 10-15 лет как то уже не особо важно все. Вычислительная мощность достигла производительности человеческого мозга. Через 10 лет можно будет купить компьютер который выдаст производительность твоей головы 24/7 с самообучением.
Если это произойдет то нами уже будет руководить машина.
Очень здравый, четкий взгляд изнутри на проблему и больших данных, и т.н. цифровизации. Вспоминается предсказание С.Савельева (а возможно и С.Переслегина), кажется о том, что следующую полит-социальную революцию сделают IT-профи. Они хоть и отличаются несколько ограниченным взглядом на мир и космополитизмом, но замечание Артура о том, что нынешняя власть (депутаты Госдумы, например) генерирует законы совершенно на пустом месте, абсолютно не учитывая большие данные, от балды, уже говорит о многом. О тенденции общественно значимой мысли.
Артуру спасибо за очень внятные ответы и хорошо структурированную информацию!
Как всегда с любой технологией, вопрос не в ней самой, а том, как и кто, во имя каких целей её используют. Опять вспоминается фраза А.Фефелова о "цифровом социализме". Если целеполагание – благополучие людей, народов и наций, то почему бы и нет! Действительно, сегодня уже можно реализовывать права людей не через архаичные формы референдума, а с помощью больших данных.
|